1
Три китовых столпа генеративного ИИ
AI030Lesson 2
00:00

Представьте мир, где искусственный интеллект не просто распознаёт закат, а рисует его из пустоты. Это кардинальный сдвиг от моделей дискриминации—которые сосредоточены на вычислении вероятности $p(output|input)$ для маркировки существующих данных — к обширной области генеративного ИИ. Мы переходим от границ, которые рисовали в прошлом, к моделированию самого основного распределения данных.

Три китовых столпа синтеза Традиционная база: p(выход | вход)⚔️ГАНыАдверсарные🌫️ДиффузияУдаление шума🔗ТрансформерыПоследовательность

Определение архитектурного ландшафта

Наша классификация определяется тремя различными математическими стратегиями, каждая из которых предлагает уникальные преимущества для мультимодального синтеза и синтеза изображений:

  • Генеративные адверсарные сети (GANs): Высокорисковое противостояние между двумя нейросетями — генератор (подделка) и дискриминатор (детектив). Это адверсарное взаимодействие заставляет генератор создавать всё более неразличимый контент.
  • Модели диффузии: Процесс поиска порядка в хаосе. Эти модели учатся путём постепенного добавления и удаления шума из данных, в конечном итоге осваивая способность формировать надёжные представления из чистого шума.
  • Авторегрессивные трансформеры: Архитекторы последовательностей. Модели, такие как Генеративный предобученный трансформер (GPT) работают путём предсказания следующего токена на основе контекста всего, что было до этого, создавая длинные, согласованные повествования и структуры.
Архитектурная синергия
Современные прорывы редко используют один столп в одиночку. Системы, подобные Stable Diffusion, используют трансформер для понимания вашего текстового запроса и Диффузия процесс для создания визуальных пикселей, часто используя эффективность скрытого пространства, найденную в вариационных автоэнкодерах (VAEs).